练习：解析策略

策略决定了智能体如何根据当前状态选择动作。换句话说，它指定了智能体如何对环境提供的情形做出响应。

思考下上节课的回收机器人 MDP。

确定性策略：示例

示例确定性策略 \pi: \mathcal{S}\to\mathcal{A} 可以指定为：

\pi(\text{low}) = \text{recharge}

\pi(\text{high}) = \text{search}

在这种情况下，

思考另一个确定性策略 \pi: \mathcal{S}\to\mathcal{A}，其中：

\pi(\text{low}) = \text{search}

\pi(\text{high}) = \text{search}

SOLUTION:

示例随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1] 可以指定为：

\pi(\text{recharge}|\text{low}) = 0.5

\pi(\text{wait}|\text{low}) = 0.4

\pi(\text{search}|\text{low}) = 0.1

\pi(\text{search}|\text{high}) = 0.9

\pi(\text{wait}|\text{high}) = 0.1

在这种情况下，

思考另一个不同的随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1]，其中：

\pi(\text{recharge}|\text{low}) = 0.3

\pi(\text{wait}|\text{low}) = 0.5

\pi(\text{search}|\text{low}) = 0.2

\pi(\text{search}|\text{high}) = 0.6

\pi(\text{wait}|\text{high}) = 0.4

SOLUTION: